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摘 要 : 跨 站 脚本 是 一 种 常见 的 针对 Web 应 用 程序 安全 的 漏洞 攻击 方式 。 恶 意 用 户 利用 漏洞 将 恶意 脚本 注入 网 页 之 中 ， 
当 用 户 浏览 该 网 页 时 ， 便 会 触发 脚本 ， 导 致 攻击 行为 产生 。 为 此 ， 针 对 各 种 变形 跨 站 脚本 攻击 难以 检测 问题 ， 对 一 种 
基于 正则 表达 式 和 支持 向 量 机 的 递归 特征 消去 算法 (RE-SVM-RFE) 进行 了 研究 。 Eg 为 
训练 集 选 择 有 代表 性 的 特征 ， 即 对 数据 预 处 理 ; 再 利用 RE-SVM-RFE 特征 选择 算法 选择 出 最 优 特征 ， 再 对 具有 攻击 性 
的 关键 词 进行 特征 排序 ; 最 后 通过 总 结 特 征 关键 字 的 出 现 频 率 ， 发 现 频 率 越 高 漏洞 存在 可 能 性 越 大 。 实 验 结果 表明 ， 
数据 经 过 RE-SVM-RFE 递归 特征 消去 算法 选择 之 后 的 SVM 特征 ， 预 测 的 准确 率 更 高 ， 敏 感度 和 特异 度 也 更 好 ， 该 算 

能 够 有 效 地 检测 出 跨 站 脚本 漏洞 。 
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Cross site scripting vulnerabilities detection based on 
support vector machine (SVM) technology 
Huang Nana* ?+, Wang Lianga "中 
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Abstract: Cross-site scripting is a common way of exploiting Web application security vulnerabilities. A malicious user exploits 
a vulnerability to inject a malicious script into a web page, and when the user browses the page, it triggers the script, causing 
the attack to occur. This paper studied a recursive feature elimination algorithm based on regular expression and support Vector 
machine (RE-SVM-RFE) for each kind of deformation. Firstly, the regular expression matching algorithm, to select a 
representative training set of characteristics, i. e. , the data preprocessing; reuse RE-SVM-RFE feature selection algorithm to 
select the optimal characteristics, and then the keyword feature offensive sort. Finally, it summarized the frequency of occurrence 
of the keyword feature, found that the higher the frequency the greater the likelihood loopholes. Experimental results show that, 
after the data RE-SVM-RFE recursive feature elimination after SVM feature selection algorithm, higher accuracy of prediction, 
and better sensitivity and specificity, the algorithm can effectively detect XSS. 

Key Words: SVM; XSS; feature vectors; Web security; feature selection; RE-SVM-REF algorithm 


向 到 由 攻击 者 控制 的 Web 内 容 。 
关于 跨 站 脚本 的 检测 最 上 
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可 追溯 到 上 个 世纪 ， 随 后 关于 该 


Web 商业 化 以 来 ，Web 发 展 一 直 在 不 断 增 长 ，Web 以 其 自 ”研究 的 研究 者 们 提出 很 多 方法 。 最 早 对 跨 站 脚本 进行 测试 的 方 


放 性 和 易 用 性 受到 越 来 越 多 的 开发 者 和 用 户 关 注 。 然 而 ， ”法 是 渗透 测试 吕 ， 在 渗透 测试 进行 的 过 程 中 ， 把 渗透 测试 


Web 为 人 类 生活 提供 便捷 时 , 其 应 用 程序 中 所 包含 的 各 3 


的 脆 


弱 性 分 析 和 动态 分 析 相 结合 ， 有 效 利用 扩展 的 污染 模式 模型 来 


s site Scripting，XSS)D 是 数据 通过 不 受信 任 的 来 源 〈 通 全 


类 
中 也 随 之 成 为 Web 上 最 为 严重 的 安全 隐患 之 一 。 跨 站 脚本 仿 测 XSS 的 存在 情况 。 文 献 [和 提出 了 基于 行为 对 比方 法 来 进 
常 ”” 行 漏洞 的 判定 ， 通 过 系统 在 普通 状态 下 和 受 攻 击 状态 下 的 行为 
程序 ,数据 被 包含 在 动态 内 容 中 ， 对 比 来 判断 系统 中 的 漏洞 存在 情况 。 文 献 [5] 设 计 一 个 保护 Web 
发 送 到 Web 用 户 ,而 恶意 脚本 内 容 不 会 被 验证 。 当 最 终 用 户 浏 ”服务 器 的 入 侵 检 测 工 具 ， 能 够 实时 跟踪 可 疑 主机 ， 能 检测 


网 页 时 ， 可 能 会 触发 未 被 验证 的 恶意 脚本 代码 ， 从 而 攻击 者 意 的 XSS， 但 是 其 通用 性 不 强 ， 模 式 匹配 部 署 工 具 中 只 包含 对 
会 发 送 私 有 数据 (如 Cookie 或 其 他 会 话 信息 )， 将 受害 者 重 定 Apache Web 这 一 服务 器 的 检测 。 文 献 [6] 提 出 一 种 使 用 软件 故 
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障 注入 技术 来 检测 自动 Web 漏洞 扫描 程序 的 方法 , 此 方法 通过 
最 常见 的 软件 故障 类 型 注入 到 Web 应 用 程序 代码 中 , 然后 由 扫 
者 程 序 进 行 检 查 ， 检 查 出 存在 跨 站 脚本 攻击 漏洞 ， 但 是 此 方法 
的 漏洞 检测 覆盖 率 低 ， 误 报 率 较 高 。 文 献 [7] 提 出 一 种 2 阶段 的 
静态 检测 方法 来 寻找 并 移 除 服 务 器 端 代码 中 的 XSS 漏洞 , 该 方 
法 在 第 1 阶段 采用 污点 分 析 方 法 来 跟踪 用 户 输 入 ， 确 定 潜在 的 
脆弱 点 ， 第 2 阶段 采用 模式 匹配 和 数据 依赖 性 分 析 找 出 源码 中 
存在 漏洞 的 位 置 并 对 漏洞 进行 移 除 ， 该 方法 对 服务 端 代码 分 析 
检测 效果 较 好 ， 但 由 于 没有 实现 对 客户 端 代 码 的 检测 ， 因 此 无 
法 检测 出 DOM 的 XSS。 文 献 中 提出 一 种 使 用 最 优 攻击 向 量 的 
XSS 漏洞 检测 方法 来 检测 Web 应 用 程序 中 的 XSS 漏洞 ， 此 方 
法 自动 生成 矢量 图 ， 优 化 模型 的 攻击 向 量 计数 器 ， 但 是 该 方法 
需要 进行 长 时 间 的 学 习 。 

已 经 有 许多 方法 用 来 检测 XSS 攻击 了 , 但 是 由 于 都 有 各 自 
的 缺点 ， 目 前 很 少 有 研究 者 借助 支持 向 量 机 的 分 类 器 .10 来 检 特征 优选 的 目的 是 将 最 有 价值 的 、 彼 此 相关 性 不 强 的 检测 
测 XSS 漏洞 。 因此， 本 文 在 借助 支持 向 量 机 分 类 器 检测 的 基础 特征 保留 下 来 。 对 于 两 类 分 类 问题 ， 意 味 着 两 类 样本 之 间 的 平 
上 ， 研 究 出 一 种 把 正则 表达 式 匹 配 算法 和 支持 向 量 机 的 特征 消 均 相 似 性 更 小 ， 具 有 更 大 的 可 分 性 。 因 此 ， 可 以 定义 类 别 可 分 
除 选择 算法 进行 结合 的 特征 重组 算法 (RegEx and recursive 性 度量 用 于 表示 两 类 样本 的 差异 。 类 别 可 分 性 越 大 ， 则 两 类 样 
feature elimination based on support vector machine, RE-SVM- 本 间 的 相似 性 越 小 ， 越 容易 分 开 。 特 征 选择 和 提取 就 是 从 候选 
RFE)， 针 对 跨 站 脚本 漏洞 进行 检测 。 实 验 首先 要 收集 正常 页 面 特征 集中 选 出 或 提取 与 任务 最 相关 的 特征 集 。 特 征 选择 的 基本 
和 存在 XSS 漏洞 的 页 面 Web 请 求 数据 集 ， 同 时 分 别 对 两 类 页 框架 如 图 3 所 示 。 


避 


数 能 将 两 类 样本 完全 分 开 ， 就 称 为 线性 可 分 ， 否 则 为 非 线 性 
] 分 。 最 佳 超 平 面 如 图 2 所 示 。 


2 RE-SVM-RFE 特征 选择 算法 


厅 中 的 URL、JavaScript 代码 以 及 Post 请 求 等 进行 特征 提取 建 
立 样本 数据 集 ， 通 过 上 面 步骤 中 收集 的 载荷 数据 ， 然 后 利用 正 初始 特征 集 
则 表达 式 匹配 算法 对 原始 样本 数据 集 进行 预 处 理 ， 提 取出 最 优 计算 得 不 特征 
的 特征 ,随后 进行 特征 的 组 合 筛选 ,形成 特征 数据 集 , 利用 SVM 的 天 列 到 人 4 性 
算法 的 模型 训练 传递 到 分 类 器 中 进行 结果 检测 ， 最 终 给 出 检测 | 
结果 。XSS 攻击 检测 流程 如 图 1 所 示 。 7 
从 特征 排序 集 的 末 
尾 逐 个 消 去 特征 
| [和 到 | | | [ 杭 开 区 
POST 数 据 载荷 数据 不 特征 集 J 
正则 表达 式 分 类 器 
LOKIS 原始 样本 分 闫 结果 
图 1 XSS 攻击 检测 流程 v 
最 佳 特征 集 
1 ”支持 向 量 机 基本 原理 图 3 ”特征 选择 的 基本 框架 
SVM 的 原理 是 寻找 一 个 满足 分 类 要 求 的 最 优 分 类 超 平面 ”2.1 正则 表达 式 匹 配 算法 
n0， 使 得 该 超 平面 在 保证 分 类 精度 的 同时 ， 能 够 使 超 平面 两 侧 正则 表达 式 以 其 强大 和 灵活 的 表达 能 力 ， 已 成 为 描述 新 一 
的 空白 区 域 最 大 化 。 理 论 上 ， 支 持 向 量 机 能 够 实现 对 线性 可 分 “，” 代 规 则 的 主要 工具 。 使 用 正则 表达 式 来 描述 攻击 的 特征 ， 比 伟 
数据 的 最 优 分 类 。 SVM 是 从 线性 可 分 情况 下 的 最 佳 分 类 超 平 面 ，” 统 的 提取 精确 字符 串 方法 更 准确 、 方 便 和 有 效 。XSS 攻击 与 程 


发 展 而 来 ， 其 基本 思想 可 用 如 图 2 所 示 的 情况 来 解释 。 现 假设 。 序 中 的 字符 串 变 量 的 操作 有 关 ， 通 过 注入 脚本 代码 带 来 安全 隐 
给 定 两 类 数据 分 类 的 训练 样本 集 为 ” 患 。 本文 为 了 能 够 做 到 分 析 数 据 集中 字符 串 变量 的 取 值 集合 ， 
DD={(%,),(%6;»)…,(%6,)}， e+ ， 其 中 X% 是 原始 样 字符 串 变量 在 数据 集中 经 过 一 系列 的 定义 赋值 以 及 组 合 操作 ， 
本 的 特征 向 量 ，y 是 相关 联 的 类 标号 ; 在 二 分 类 中 , 每 个 y( 即 ”使 用 正则 表达 式 匹 配 算法 来 表示 其 在 不 同 数 据 集中 的 取 值 ， 这 
ye{-1,+1} ) 取 二 值 之 一 ， 表 示 是 否 属于 这 个 类 。 如 果 有 线性 ”使 得 正则 表达 式 匹 配 算法 成 为 属性 选择 的 最 好 算法 。 
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2.2 RE-SVM-RFE 算法 和 迭代 过 程 直到 : s =[] 

RE-SVM-RFE 算法 的 提出 是 根据 支持 向 量 机 递归 特征 消 获取 当前 新 的 训练 样本 矩阵 : X = X,(;,s) 

除 算法 [的 思想 ， 在 特征 筛选 过 程 中 进行 了 一 些 改进 。 在 RE- 给 定 参数 后 训练 分 类 器 : cw = SVM -train(X,y) 


SVM-RFE 算法 处 理 数据 集 前 ， 首 先 利 用 正则 表达 式 匹 配 算法 计算 权 什 向 量 ，W= yx 
从 数据 集中 挑选 出 有 代表 性 的 特征 数据 ， 本 实验 从 数据 集中 挑 
选 出 了 46 个 有 代表 性 的 特征 ;然后 通过 和 迭代 训练 选 出 一 些 最 计算 排序 标准 : c= DJ(h) 
优 特征 。 对 选 出 的 良好 特征 进行 分 组 测试 ， 利 用 递归 特征 消除 寻找 特征 排序 得 分 值 最 小 项 ，f =arg min(c) 
算法 计算 出 组 合 特征 权重 (3 值 ， 通 过 每 次 迭代 都 能 对 组 合 特征 更 新 特征 排序 向 量 : =[s( 了 ),7] 
的 权重 值 进行 排序 ， 筛 选 出 权重 值 最 小 的 进行 删除 。 在 开始 : 消去 得 分 最 小 特征 : s= sl: f -1, f+1:1length(s)) 
又 中 特征 集合 是 比较 庞大 的 ， 但 是 随 着 算法 的 进行 ， 每 次 的 选 输出 ， 特 征 排序 列表 。 
代 都 会 移 除 一 个 组 合 特征 , 本 实验 通过 RE-SVM-RFE 算法 迭代 经 过 上 面 RE-SVM-RFE 算法 的 筛选 过 程 最 终 得 到 最 优 的 
后 ,最 终 挑选 出 了 6 个 最 优 的 特征 。 对 挑选 出 的 6 个 最 优 特 征 ， 特征 排序 表 。 排 序 在 前 面 的 单个 特征 不 一 定 能 使 得 SVM 分 类 
进行 重新 组 合 来 测试 RE-SVM-RFE 算法 与 SVM-RFE 算法 的 差 。 器 (9 有 很 好 的 分 类 性 能 ， 需 要 将 多 个 特征 进行 组 合 ， 才 能 使 得 
别 。 SVM 分 类 器 有 最 优 的 分 类 性 能 , 要 想得到 较 好 的 分 类 结果 需 
2.2.1 RE-SVM-RFE 算法 的 迭代 过 程 对 SVM 模型 进行 训练 。 首 先 利用 挑选 出 来 的 特征 排序 表 定 义 
在 RE-SVM-RFE 算法 的 执行 过 程 中 , 每 次 都 需要 挑选 出 一 ”一 定数 量 的 由 套 的 特征 子 集 下 三.…c 来 训练 SVM 模型 
个 权重 最 小 值 ， 然 后 将 其 移 除 。 在 算法 每 删除 一 个 权重 最 小 值 59， 然后 用 SVM 模型 来 预测 正确 率 来 准确 评估 这 些 特征 子 集 
时 都 有 三 个 执行 步骤 ， 具 体内 容 如 下 : 的 优 劣 ， 最 终 能 够 获得 最 优 的 特征 子 集 。 挑 选 结果 说 明 ， 经 过 
a) 用 样本 数据 集训 练 分 类 器 ， 得 到 的 特征 数据 要 与 分 类 器 。 RE-SVM-RFE 算法 选择 后 ， 能 挑选 出 最 优 的 特征 。 
的 特征 相关 《如 优化 权 值 w ); 在 用 RE-SVM-RFE 算法 选择 最 优 特征 子 集 时 ， 本 文 用 10 
b) 依 据 前 面 正 则 表达 式 匹配 算法 挑选 出 的 特征 来 进行 筛选 折 交 叉 验 证 算法 0g， 用 国定 的 参数 维 数 来 分 配 训练 集 和 测试 集 。 
同时 计算 挑选 出 的 46 特征 的 属性 值 (如 代价 函数 DJ(h) ); 在 特征 排序 表 训 练 过 程 中 使 用 SVM 参数 寻 优 方法 进行 参数 寻 
c) 肌 除数 据 集中 挑选 出 的 最 小 权重 ， 即 最 小 排序 标准 的 特 。” 优 。 具 体 详细 的 特征 选择 框架 如 所 图 4 所 示 。 
征 
在 最 优 特征 的 选择 过 程 中 ， 每 选择 出 一 个 最 优 特征 ， 都 是 i 
要 进行 一 定 的 选 代 过 程 ， 直 到 数据 集中 只 留 下 一 个 特征 变量 时 OO 
方 可 结束 ， 最 终 选 择 出 的 结果 是 获得 了 一 列 按照 特征 重要 性 排 Bu 
列 的 特征 排序 列表 ， 本 实验 中 ， 最 终 选 出 6 个 最 优 特征 。 下 硬 一 
介绍 SVM 的 代价 函数 。 有 
对 于 线性 SVM， 消 去 第 个 特征 的 代价 函数 : 并 集 错误 
DJ(h) = (0@,) (1) - 
图 4 ”特征 选择 框架 


对 于 非 线性 SVM: 


2.3 RE-SVM-RFE 算法 的 数据 处 理 结果 
从 超 文本 传输 协议 请 求 数据 包 中 提取 的 载荷 数据 都 是 非 结 
HH 是 一 个 矩阵 ， 其 元 素 为 yy,K(X,,X,) ，H(-hh) 为 消去 第 。 构 化 的 ， 需 要 进行 结构 化 处 理 ， 从 原始 特征 中 挑选 出 数量 为 n 


DI(h) a" Ha ya H Ma (2) 


于 个 特征 后 的 矩阵 。 其 中 天 表示 核 函数 , 核 函 数 测量 实例 X 与 。” 的 一 组 最 优 特征 ， 在 不 降低 分 类 准确 率 的 前 提 下 降低 原始 特征 

X 之 间 的 相似 性 。 的 空间 维 数 ， 将 原始 载荷 数据 转换 为 固定 维 数 的 特征 向 量 ， 作 

2.2.2 RE-SVM-RFE 算法 过 程 为 XSS 攻击 检测 算法 的 输入 数据 。 
RE-SVM-RFE 算法 的 整体 过 程 如 下 所 示 : 通过 分 析 漏 洞 验 证 阶段 、 漏 洞 利用 阶段 及 各 种 绕 过 情景 下 
输入 : 的 XSS 攻击 语句 的 各 种 形式 ， 采 用 人 工 挑选 、 数 学 统计 以 及 
训练 样本 矩阵 ， X= [XX XJ RE-SVM-RFE 算法 相 结合 的 方式 对 原始 载荷 数据 进行 特征 选 
类 别 标签 :y=[y ,yy 了 择 ， 经 过 不 断 的 迭代 ， 再 从 选择 的 特征 中 进行 分 组 测试 ， 最 终 
初始 化 : 选择 出 最 优 的 6 个 特征 : 各 种 截断 、 闭 合 等 特殊 字符 频率 〈 特 
当前 特征 子 集 向 量 : s= [此 2.…, 妇 殊 字 符 个 数 /字符 数 )、 大 写字 母 字符 频率 ;攻击 特征 关键 字 频 
特征 排序 向 量 : r = [] 率 、 小 写字 母 字符 频率 、 数 字 字 符 个 数 频率 和 空格 字符 频率 。 
特征 排序 : 寺 征 的 汇总 和 具体 含义 如 表 1 所 示 。 
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表 1 特征 名 称 与 含义 看 出 ,RE-SVM-RFE 算法 的 结果 要 明显 好 于 SVM-RFE 的 结果 。 
特征 名 称 特征 含义 算法 执行 结果 说 明 , RE-SYM-RFE 算法 选 出 了 区 分 能 力 更 
攻击 特征 关键 字 相应 类 型 攻击 的 特征 关键 字 为 显著 的 特征 ， 即 选 出 了 对 类 别 区 分 能 力 很 强 的 特征 ， XSS 攻 
字 字 母 字符 频率 字 字 母 (A-Z) 从 而 对 特征 评价 产生 影响 ， 因 此 ， 在 SVM-RFE 特征 选择 之 前 
小 写字 母 字 符 频率 小 字 字母 (82) 通过 正则 表达 式 进 行 数据 预 处 理 是 非常 有 意义 的 。 
Te 0 3 ”实验 与 结果 分 析 
空格 字符 频率 空格 字符 频率 


3.1 实验 准备 

其 中 ，XSS 攻击 语句 中 常见 的 攻击 特征 关键 字 有 script、java、 本 文 实验 使 用 数据 集 均 来 自 互 联网 ， 但 是 有 两 个 不 同 的 方 
iframe、 alert、 img、 style、 prompt、 location、 hash、 src、href、 面 。 正常 样本 数据 集 是 通过 分 析 Web 服务 器 日 志 提 取 良 性 访问 
eval、XMLHttpRequest、ActiveXobject、@improt; 常见 的 特殊 ”资源 的 请 求 得 到 的 ， 跨 站 脚本 攻击 样本 数据 集 是 通过 分 析 漏 洞 
字 答 有; <、 > "(5 [1] 提交 网 站 XSSEDL" 1、HA.CKKERSI51 与 exploit-db.09 得 到 的 。 
| 本 实验 所 用 数据 集 共 有 两 部 分 组 成 : 正常 的 载荷 请 求 样本 集 和 
于 实验 数据 包含 两 类 样本 ， 为 了 对 数据 集 进一步 细致 的 ”器 站 脚本 漏洞 样本 集 。 在 之 前 的 准备 工作 中 ， 共 收集 1 378 条 
分 析 和 理解 ， 科 选 出 具有 显著 区 分 能 力 的 潜在 特征 。 即 从 46 个 ”样本 数据 ， 样 本 集 如 表 4 所 示 。 


特征 中 挑选 出 6 个 最 优 特 征 进行 分 类 组 合 ， 再 用 SVM-RFE 和 表 4 样本 集 分 类 
RE-SVM-RFE 的 10 折 10 倍 交叉 验证 方法 的 进行 平均 分 类 准确 请 求 类 型 ” ” 样本 数量 
率 和 标准 偏差 计算 。 结 果 对 比如 表 2 所 示 。 XSS 请 求 686 
表 2 两 种 算法 的 准确 率 对 比 HTTP 正常 请 求 692 
SVM-RFE /% RE-SVM-RFE /% 
特征 1 vs 特征 2 7796+329 83.69 +43.07 本 实验 用 到 的 主机 配置 为 为 CPU Intel15, 主 频 2.0 GB， 内 
特征 2 vs 特征 3 78.82 4 3.67 78.824 3.19 存 8GB, 操作 系统 是 Win10 64 位 。 对 于 现 有 的 机 器 识别 方法 ， 
特征 3 vs 特征 4 78.82 4 4.48 86.18 + 2.78 采用 Weka 实验 平台 进行 测试 , 通过 SVM 分 类 器 来 识别 跨 站 脚 
特征 3 vs 特征 4_vs 特 征 5 72.004+4.15 78.56 + 2.88 本 攻击 。 本 文 提出 的 算法 则 是 通过 Microsoft Visual Studio 2015 
与 Microsoft SQL Server 2012 编程 进行 数据 集 的 特征 预 处 理 ， 
从 表 2 中 可 以 看 出 ,无 论 从 平均 准确 率 还 是 标准 偏差 上 RE- ”首先 对 收集 到 的 原始 数据 进行 分 类 概括 总 结 出 了 46 个 特征 ， 


SVM-RFE 的 结果 均 好 于 SVM-RFE。 在 特征 1 vs 特征 2、 特 征 。 然后 利用 正则 表达 式 匹 配 算法 进行 数据 的 预 处 理 ， 再 采用 本 文 
3 vs 特征 4 和 特征 3 vs 特征 4vs 特征 5 三 组 分 类 问题 上 ，RE- 提出 的 RE-SVM-RFE 特征 选择 算法 来 匹配 出 最 好 的 特征 。 从 
SVM-RFE 的 分 类 准确 率 比 SVM-RFE 分 别 高 5.73%、7.36% 和 ”46 个 特征 中 找 出 最 具 代 表 性 的 6 个 特征 作为 最 终 的 验证 数据 
6.56%。 在 特征 2 vs 特征 3 分 类 问题 上 ， 虽 然 两 者 的 分 类 准确 。 和 集 。 最 佳 特征 应 具有 稳定 性 、 可 辨别 性 和 相对 独立 性 等 特征 ， 


T 


五 


ty 
o 


率 相同 ， 但 RE-SVM-RFE 的 标准 偏差 明显 小 于 SVM-RFE， 即 。 其 中 稳定 性 表示 同一 类 别 的 特征 值 就 相近 、 可 辨别 性 表示 不 同 
RE-SVM-RFE 算法 得 到 的 结果 更 稳定 ， 如 表 3 所 示 。 类 别 的 特征 取 值 应 具有 明显 差异 、 相 对 独立 性 表示 各 个 不 同 特 
表 3 敏感 度 和 特异 度 的 比较 征 之 间 关 联 性 不 强 PI。 本 实验 中 提取 出 的 6 个 最 优 特征 能 够 准 

SVM-RFE RE-SVM-RFE SVM-RFE RE-SVM-RFE 确 的 反映 Web 请 求 载 荷 数据 的 本 质 特 征 。 表 5、6 给 出 了 提取 
Sensibility(%) Sensibility(%) Specificity(%) Specificity(%) 后 的 最 优 样本 特征 值 。 每 个 特征 所 表示 的 含义 为 : 特征 1 表示 

1 组 75.90 士 4.63 81.53 土 5.83 76.97 士 5.02 85.00 + 3.92 特殊 字符 频率 、 特 征 2 表示 数字 个 数 频率 、 特 征 3 表示 小 写字 
2 组 78.09 土 3.29 79.05 土 3.01 79.87 土 5.94 82.87 土 4.03 母 个 数 频率 、 特 征 4 表示 大 写字 母 字 符 个 数 频 率 、 特 征 5 表示 

3 组 ”76.87 土 5.98 84.25 土 5.46 80.23 土 5.63 88.63 土 5.09 不 同类 型 的 攻击 关键 词 特征 字符 频率 和 特征 6 表示 载荷 数据 中 

4 组 76.96 土 3.09 73.00 士 3.85 76.06 士 3.19 79.56 土 2.68 是 否 出 现 相应 类 型 攻击 的 特征 关键 字 类 别 标号 。 最 后 选择 出 最 


优 的 各 类 样本 集 特征 如 表 5、6 所 示 。 

同时 ， 为 了 弥补 只 考虑 准确 率 的 不 足 ， 对 两 类 问题 ， 敏 感 从 表 5、6 所 列 的 正常 样本 和 跨 站 脚本 攻击 样本 中 , 可 以 看 
度 〈sensitivity) 和 特异 度 specificity) 也 是 一 种 常用 的 度量 指 ”出 同一 类 别 的 特征 值 取 值 相 近 ， 不 同 特征 的 特征 值 取 值 相差 较 
标 。 表 3 中 的 1 组 、 2 组 、3 组 和 4 组 分 别 代表 特征 1 vs 特征 。 大 ， 这 说 明 提取 的 数据 特征 具有 强 的 可 辨别 性 、 高 的 稳定 性 ， 
2、 特 征 2 vs 特征 3、 特征 3 vs 特征 4 和 特征 4vs 特征 5 这 4 ”然而 不 同 的 特征 之 间 没 有 相关 性 ， 说 明 数 据 特征 具有 很 好 的 独 
组 。 表 3 中 给 出 了 两 种 算法 在 敏感 度 和 差异 度 上 的 比较 。 可 以 ” 立 性 。 
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5 ”正常 样本 特征 

特征 1 ”特征 2 ”特征 3 特征 4 特征 5 ”特征 6 

0.1389 0.2083 0.5694 0.0556 0.0000 0 

0.2400 0.0000 0.7600 0.0000 0.0000 0 

0.2857 0.0000 0.7143 0.0000 0.0000 0 

0.3182 0.0000 0.6818 0.0000 0.0000 0 

0.1719 0.4219 0.3906 0.0000 0.0000 0 

表 6 XSS 攻击 样本 特征 

特征 1 ”特征 2 特征 3 ”特征 4 特征 5 ”特征 6 

0.2045 0.0114 0.7614 0.0000 0.0341 

0.2119 0.0593 0.6695 0.0508 0.0254 

0.1686 0.1065 0.6391 0.0680 0.0118 

0.1684 0.1053 0.6737 0.0421 0.0316 

0.2000 0.1517 0.6276 0.0207 0.0138 
3.2 结果 分 析 

为 了 验证 该 算法 的 正确 性 ， 需 要 用 到 一 些 评估 指标 ， 如 混 

消 和 矩阵 、 查 准 率 、 查 全 率 、ROC 曲线 和 F-measure 值 。 混 清算 
阵 中 所 有 参数 及 参数 意义 为 : 真正 例 (true positive，TP), 表示 
实际 为 正 类 被 预测 为 正 类 样本 的 个 数 ， 假 正 例 (false positive， 
FP)， 表 示 实 际 为 负 类 被 测 为 正 类 的 样本 个 数 ， 真 反例 (true 
negative，TN)， 表 示 实 际 为 负 类 被 预测 为 负 类 的 样本 个 数 ， 假 


反例 (false negative，FN)， 表 示 实 际 为 J 


E 类 被 预测 为 负 类 的 样 


例 个 数 ， 最 终 样 本 总 数 =TP+FP+TN+FN。 分 类 结果 的 混淆 矩阵 
如 表 7 所 示 。 
表 7 分 类 结果 混淆 矩阵 
预测 结果 
真实 情况 
正 例 反例 
正 例 TP (真正 例 ) ”FN ( 假 反例 》 
反例 FP( 假 正 例 ) ”TN ( 真 反例 ) 
本 文 提出 的 算法 最 终 得 到 的 混淆 矩阵 数据 如 表 8 所 示 。 
表 8 本 文 算法 分 类 结果 混淆 矩阵 
预测 结果 
真实 情况 一 一 一 一 一 一 
正 例 ”反例 
正 例 632 64 
反例 32 660 
从 表 8 中 可 以 看 到 主 对 角 线 的 检测 出 来 的 数据 远 远大 于 副 
对 角 线 上 的 数据 ， 这 说 明 本 文 所 用 方法 得 到 的 准确 率 较 高 。 
查 准 率 (precision ) 和 查 全 率 (recall) 一 般 是 不 会 被 抓 立 
的 进行 讨论 的 ， 但 是 有 时 候 为 了 检测 的 方便 也 会 单独 测试 ， 本 
实验 验证 算法 则 是 单独 测试 的 , 查 准 率 P 和 查 全 率 R 分 别 表示 
如 下 
TP 0@3) 


“TP+FP 


在 检测 跨 站 脚本 攻击 实验 中 
十 检测 的 每 个 结果 都 是 可 


味 着 通过 
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意味 着 所 有 存在 漏洞 的 请 求 数据 都 被 检测 
法 的 测试 结果 
ROC 曲线 
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[ 表 9 所 示 ， 检 测 结果 明显 人 
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来 衡量 学 习 
学 习 训练 器 计算 出 的 两 


昌 关 的 ,完美 的 查 全 率 值 也 为 1.0 
出 来 ， 本 文 所 提出 算 
于 其 他 算法 。 

训练 器 泛 化 性 能 
重要 的 特征 量 决定 。 
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E 例 率 和 假 


个 
横 坐 标 表示 假 正 


正 例 率 的 综合 
积 值 (ROC area) 越 靠 近 1 ， 表 
高 ， 表 9 中 ROC area 值 表现 
明 本 文 算法 对 跨 站 脚本 攻击 有 较 高 


网 率 ， 
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的 检测 率 。 
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行 评估 选 值 。 每 次 迭代 中 ， 
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来 度量 测试 精度 ， 


F —measure = 


通常 被 定义 为 准确 
均值 。F-measure 的 计算 公式 2 如 下 : 


2 xPrecison x Recall 


E 子 集 的 评 


] SVM 算法 对 


古 标准 。 
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采用 SVM 的 上 - 


F-measure 是 用 


率 和 查 全 率 的 加 权 调 
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(7) 


Precison + Recall 


如 表 9 所 示 ，F-measure 值 表现 最 好 的 则 支持 向 量 机 分 类 


器 ， 说 明 本 文 算法 对 XSS 攻击 有 较 高 的 识别 率 。 
表 9 各 分 类 器 检测 结果 数据 
TP FP F- ROC 
Classifier Class Precision Recall 
Rate Rate Measure Area 
REB +1 0.905 0.058 0.939 0.905 0.922 0.955 
Tree -1 0.942 0.095 0.909 0.942 0.925 0.955 
Naive +1 0.792 0.066 0.922 0.792 0.852 0.916 
Bayes -1 0.934 0.208 0.819 0.934 0.872 0.916 
+1 0.794 0.081 0.907 0.794 0.847 0.857 
四 -] 0.919 0.206 0.819 0.919 0.866 0.857 
+1 0.847 0.053 0.940 0.847 0.891 0.945 
Logistic 
-1 0.947 0.153 0.862 0.947 0.902 0.962 
LogitBoo +1l 0.847 0.053 0.940 0.847 0.891 0.962 
st -1 0.947 0.153 0.862 0.947 0.902 0.962 
本 文 +1 0.907 0.046 0.951 0.907 0.928 0.969 
方法 -1 0.954 0.093 0.912 0.954 0.932 0.956 


录用 稿 
不 同 的 分 类 器 消耗 时 间 如 表 10 所 示 。 
表 10 各 分 类 器 耗费 时 间 的 具体 数据 
Classifier Train Time(S) Test Time(S) Total Time(S) 
REBTree 0.05 0.01 0.06 
NaiveBayes 0.03 0.02 0.05 
J48 0.07 0.04 0.11 
Logistic 0.07 0.05 0.12 
LogitBoost 0.06 0.04 0.10 
本 文 方法 0.03 0.01 0.04 


Es 


表 10 中 J48 分 类 器 训练 与 测试 总 耗费 时 间 为 0.11 s， 但 
准确 率 为 85.709 3%，NaiveBayes 分 类 器 训练 与 测试 总 耗费 时 
间 为 0.05 s， 准 确 率 为 86.284 5%， 本 文 算法 训练 所 用 时 间 为 
0.04s, 仅 次 于 NaiveBayes 的 0.01s, 但 识别 准确 率 比 NaiveBayes 
高 6.794 4%。 训练 所 耗 时 间 还 取决 于 算法 优化 , SVM 算法 优化 


程度 较 好 ， 运 行 所 耗费 时 间 短 ，RE-SVM-RFE 算法 的 时 间 复 杂 
度 可 以 再 优化 。 


4 ”结束 语 


本 文 的 前 期 工作 量 比较 大 ， 主 要 工作 要 分 析 跨 站 脚本 漏洞 
的 一 些 主要 特征 ， 了 解 漏洞 产生 的 原因 ;然后 分 析 正 常用 户 的 
傅 入 与 攻击 者 输入 的 攻击 语句 之 间 的 不 同 ， 要 能 正确 区 分 出 正 
常 请 求 与 跨 站 脚本 攻击 请 求 后 ， 最 后 收集 整理 数据 集 对 跨 站 有 
本 攻击 进行 检测 。 本 文 基于 支持 向 量 机 模型 训练 的 原理 ， 提 出 
了 一 种 基于 正则 表达 式 匹 配 算 法 和 支持 向 量 机 的 特征 消除 选择 
算法 ， 通 过 正则 表达 式 匹 配 算法 对 数据 集 进行 预 处 理 ， 用 核 函 
数 对 预 处 理 后 的 数据 进一步 优化 ， 再 依据 序列 最 小 优化 分 类 器 
来 对 跨 站 脚本 漏洞 进行 检测 ， 最 后 利用 SVM 模型 进行 验证 检 
测 结果 。 实 验 结果 表明 ， 本 文 提 出 的 特征 选择 消除 算法 进行 分 
析 对 比 得 出 对 未 知 的 跨 站 脚本 攻击 有 较 好 的 检测 效率 。 接 下 来 
的 任务 主要 还 是 对 数据 集 的 特征 进行 再 优化 。 本 文 研究 内 容 主 
要 是 建立 在 实验 的 基础 上 ， 在 实际 检测 应 用 中 还 需 加 以 改进 和 
不 断 的 完善 。 
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